Amazon Omics Storage リファレンスストアは圧縮したファイル形式には対応していないためインポートする前に確認しましょう
リファレンスストアにリファレンスゲノム(.fna.gz
)を保存しようとして失敗しました。Failed
と表示されるだけで原因までは表示をしてくれないため原因を備忘録として残しました。
Inventory icons created by Freepik - Flaticon
確認結果
- リファレンスストアに保存できるデータフォマットは非圧縮の
FASTA
形式のみである- リファレンスストアへインポート確認済み拡張子は以下です(2023/2/4現在)
- 付加情報を付与しない
.fasta
ファイル - 塩基配列の
.fna
ファイル
.fna.gz
ファイルのインポートに失敗した様子
リファレンスストアとシーケンスストア
リファレンスストアはFASTA
形式のファイルのみ保存できるようになっています。
シーケンスストアはFASTQ
形式のインポートに対応していますが gzip 圧縮してあることが条件になっています。詳しくは以下の記事を参考にしてください。
Amazon Omics の検証していて NCBI のデータベースからダウンロードしてきたFASTA
ファイルをそのままリファレンスストアへ保存しようとして失敗したときのお話です。
やってみた
やってみたというよりは別件の検証のためにリファレンスゲノムを保存しようとしたらハマって知りました。
エンドウヒゲナガアブラムシ(Acyrthosiphon pisum)のリファレンスゲノムをダウンロードしました。
- ファイル名:
GCF_000001215.4_Release_6_plus_ISO1_MT_genomic.fna.gz
gzip で圧縮されていたのですがデータフォーマットはFASTA
形式なので問題ないだろうとリファレンスストアにインポートをしてみました。するとインポート処理はFailedとなり保存できませんでした。
何がつらいかと言えばエラーの原因に繋がるメッセージは表示がないことです。切り分けはおそらく圧縮していることが問題なのだろうとあたりをつけて試してみます。
展開してから試してみた
非圧縮のFASTA
ファイルのインポート実績はあったため正常にインポートできました。
今回の挙動からリファレンスストアはシーケンスストアとは真逆で圧縮されていないことが条件の様です。
圧縮・非圧縮ファイルサイズの違い
gzip で圧縮するとファイルサイズが3分の1程度まで小さくできます。オンプレミスのストレージの場合は空き容量節約、S3 に保存する場合は重量課金額の抑制に繋がり長期保存するのであれば圧縮した方が好ましいでしょう。
$ ll total 302984 -rw-r--r--@ 1 ohmura.yasutaka staff 42M 2 3 21:01 GCF_000001215.4_Release_6_plus_ISO1_MT_genomic.fna.gz -rw-r--r-- 1 ohmura.yasutaka staff 139M 2 3 21:01 GCF_000001215.4_Release_6_plus_ISO1_MT_genomic.fna
Omics Storage は bp(base pair) 数で課金される特殊な料金体系のため Omics Storage 利用費削減には繋がりません。ですので、リファレンスゲノムを保存するときは気にしなくて良いということなのでしょう。
おわりに
Omics Storage への移行を検討するとなると圧縮されているFASTA
ファイルは展開しないといけないですね。
ふと気になったことがありまして、リファレンスストアに非圧縮のFASTA
形式であればアミノ酸配列の.faa
ファイルも保存できるのか?時間があれば試してみたいと思います。